當模型部署上線後,並不代表工作結束。
事實上,AI 模型在上線後的表現才是關鍵挑戰的開始。
隨著時間推進,資料分布會變、使用情境會變、使用者行為也會改變,
這些都會導致模型效能逐漸下降,出現所謂的 模型漂移(Model Drift)。
今天,我們要探討如何監控模型運作,並持續優化 AI 系統的表現。
AI 模型與傳統軟體最大的不同在於,它不是寫死的邏輯,而是「根據資料學來的規則」。
也因此,它的可靠性取決於資料是否仍然反映現實世界。
問題 | 描述 | 結果 |
---|---|---|
資料漂移 (Data Drift) | 輸入資料的分布發生變化 | 模型輸出不再準確 |
概念漂移 (Concept Drift) | 標籤與資料之間的關係改變 | 預測邏輯失效 |
效能衰退 (Performance Decay) | 模型老化或外部條件變化 | 準確率下降 |
偏差累積 (Bias Accumulation) | 模型輸出受偏差影響 | 決策失衡、不公平結果 |
因此,持續監控、評估與調整 是 AI 維運中不可或缺的任務。
Azure 在 MLOps 方面的監控與自動化非常成熟,主要透過 Azure Machine Learning(AML) 提供整合能力。
Azure ML Monitoring
Data Drift Monitor
Model Registry + Versioning
MLflow Integration
Google 的 Vertex AI 則在「監控 + 自動再訓練」上有完整的產品線支援。
Vertex AI Model Monitoring
Vertex AI Pipelines + Workbench
Model Evaluation
Continuous Training
項目 | Azure AI Foundry | Google Vertex AI |
---|---|---|
資料漂移偵測 | Data Drift Monitor | Model Monitoring |
概念漂移偵測 | 支援 (需自定義 pipeline) | 內建支援 |
效能追蹤 | MLflow + Azure Monitor | Model Evaluation |
自動再訓練 | Pipeline 可自訂觸發 | Continuous Training 原生支援 |
可視化整合 | Application Insights, Power BI | BigQuery, Looker Studio |
版本控制 | Model Registry | Model Registry |
異常通知 | Azure Alerts | Cloud Monitoring Alerts |
💡 簡言之:
在企業導入 AI 模型後,建議建立以下「持續改進閉環」:
資料蒐集 → 模型訓練 → 部署 → 監控 → 偵測漂移 → 再訓練 → 部署新模型
這個循環可以透過 MLOps Pipeline 全自動化實現。
實務重點:
資料監控
比對新資料與訓練集的分布差異(統計距離如 KL Divergence)
效能監控
追蹤實際輸出 vs 真實結果(若有標籤)
觸發機制
設定當效能下降或漂移超過門檻時,觸發 retraining
版本與審查
每次 retrain 後版本化,確保治理與審核可追蹤
人機協作
將異常結果回饋給資料團隊進行再標註或特徵調整
在 Day21 我們學到:
模型監控是 AI 專案生命週期中最關鍵但最常被忽略的一環
Azure 與 Google 都提供完整的監控與優化機制
維運的關鍵在於建立自動化「監控 → retrain → 部署」的閉環
真正成功的 AI 專案,不只是部署一次,而是能持續學習與自我進化